Sommaire (esilv_tp2_pandas_accidents_de_la_route)

-1) Base de données accidents corporels de la circulation
-1.1) Téléchargement de la documentation

0) Téléchargements des données

1) Matplotlib : la librairie standard est originale de python

1.1) Syntaxe d'extraction d'élèments en fin ou début de tableau => [:]

2) Bokeh : la nouvelle librairie d'analyse de données

3) Modification des noms de colonnes

3.1) méthode 1
3.2) méthode 2

4) analyse

4.1) passer de catégories chiffrées à des labels
4.2) group by / count / unique
4.3) scatter plot : matplotlib / bokeh

5) Analyse des départements

5.1) Gestion des nuls
5.2) Regardons les départements
5.3) Tableau croisé dynamique
5.4) seaborn
5.4.1) heatmap

6) pickeliser les dataframes :

7) Formattage des strings en python

7.1) Version historique : %S
7.2) Les accolades + la fonction format
7.3) f-strings

-1) Base de données accidents corporels de la circulation

https://www.data.gouv.fr/fr/datasets/base-de-donnees-accidents-corporels-de-la-circulation/

Ce jeu de données provient d'un service public certifié NEC MERGITUR Pour chaque accident corporel (soit un accident survenu sur une voie ouverte à la circulation publique, impliquant au moins un véhicule et ayant fait au moins une victime ayant nécessité des soins), des saisies d’information décrivant l’accident sont effectuées par l’unité des forces de l’ordre (police, gendarmerie, etc.) qui est intervenue sur le lieu de l’accident. Ces saisies sont rassemblées dans une fiche intitulée bulletin d’analyse des accidents corporels. L’ensemble de ces fiches constitue le fichier national des accidents corporels de la circulation dit " Fichier BAAC " administré par l’Observatoire national interministériel de la sécurité routière "ONISR".

Les bases de données, extraites du fichier BAAC, répertorient l'intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine ainsi que les départements d’Outre-mer (Guadeloupe, Guyane, Martinique, La Réunion et Mayotte depuis 2012) avec une description simplifiée. Cela comprend des informations de localisation de l’accident, telles que renseignées ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.

Par rapport aux bases de données agrégées 2005-2010 et 2006-2011 actuellement disponibles sur le site www.data.gouv.fr, les bases de données de 2005 à 2016 sont désormais annuelles et composées de 4 fichiers (Caractéristiques – Lieux – Véhicules – Usagers ) au format csv.

Ces bases occultent néanmoins certaines données spécifiques relatives aux usagers et aux véhicules et à leur comportement dans la mesure où la divulgation de ces données porterait atteinte à la protection de la vie privée des personnes physiques aisément identifiables ou ferait apparaître le comportement de telles personnes alors que la divulgation de ce comportement pourrait leur porter préjudice (avis de la CADA – 2 janvier 2012).

-1.1) Téléchargement de la documentation

https://www.data.gouv.fr/fr/datasets/r/36496bab-a042-47bf-b08b-3c7467f2bddf

0) Téléchargements des données

https://www.data.gouv.fr/fr/datasets/r/be2191a6-a7cd-446f-a9fc-8d698688eb9e

https://www.data.gouv.fr/fr/datasets/r/e4c6f4fe-7c68-4a1d-9bb6-b0f1f5d45526

https://www.data.gouv.fr/fr/datasets/r/08b77510-39c4-4761-bf02-19457264790f

https://www.data.gouv.fr/fr/datasets/r/96aadc9f-0b55-4e9a-a70e-c627ed97e6f7

1) Matplotlib : la librairie standard est originale de python

1.1) Syntaxe d'extraction d'élèments en fin ou début de tableau => [:]

2) Bokeh : la nouvelle librairie d'analyse de données

3) Modification des noms de colonnes

3.1) méthode 1

3.2) méthode 2

4) analyse

4.1) passer de catégories chiffrées à des labels

4.2) group by / count / unique

4.3) scatter plot : matplotlib / bokeh

5) Analyse des départements

La notion d'axis dans les dessins matplotlib

5.1) Gestion des nuls

5.2) Regardons les départements

5.3) Tableau croisé dynamique

5.4) seaborn

5.4.1) heatmap

Usage de jupyter notebook :

Manipuler les cellules => ESC + a ou b ou copier / coller / déplacer etc...

Usage de jupyter notebook :

6) pickeliser les dataframes :

7) Formattage des strings en python

=> ancienne mode => utiliser %s + un tuple de string

=> nouveau => utiliser des noms de variable entre accolades + la fonction format avec des paramétres qui sont ces noms de variables

7.1) Version historique : %S

7.2) Les accolades + la fonction format

7.3) f-strings